大家一定都聽過數據分析
讓我們先來看一筆實際的數據
點開kaggle上隨意一筆csv檔
(資料來源:https://www.kaggle.com/andrewmvd/heart-failure-clinical-data)
沒看錯,就是密密麻麻的數字跟符號
這些數據可以拿來幹嘛呢?到底厲害在哪?
數據分析的用途在哪?
數據在現實生活中,主要是拿來協助決策的執行
在網際網路發達的現代,大部分的資料都以數據的形式出現
許多企業在做實務上的決策時,已經無法單純依靠人為的決策做判斷
這時候就需要利用數據分析的產出結果協助做決策
數據分析的流程
此時需要明確定義出問題,確認要執行的目標
根據不同的企業應用場景,也會有不同的問題定義手法,最重要的是掌握問題的核心
以下舉例常見的幾種分析問題的思維:
結構化思維:
金字塔+MECE:金字塔化的拆解方式,將問題依照不同類別層層拆解,在每個水平層級間又依照MECE的手法,彼此獨立互相遺漏的去拆解細分
6W2H方法論:
What? Why? Who? When? Where? Which? How? How much?
量化思維:
還有許許多多種的分析思維,主要還是依據不同的領域和場景去選擇
以下從2~4就是我在這個計畫想學習的主題
把這些過程想像成做蛋糕的所有步驟
那開始一邊做蛋糕,一邊進入數據分析的世界吧!
在做蛋糕的過程中,這個步驟就像是準備所有食材,
有些食材是自己家裡已經有的,就像有些公司會有內部的資料數據可以取得,
如購物網站本身的產品資料、消費者資料等等
還是些要另外買的,要特別出門買才能取得的材料
數據分析的世界裡,則叫做從外部獲取數據資料,
這就需要涉及到資料爬蟲(Data Crawler),
把所有需要的東西,從外面抓抓抓到我們自己的資料庫裡
在蒐集完所需資料後就需要資料庫來管理龐大的資料
常見的手法就是利用資料庫管理系統(Database Management System ,DBMS)
此時資料庫管理系統就會像是放我們所有食材的大桌子
把所有需要的食材準備好放在桌上,才能進行下一步
在這個30天計畫裡,我選擇SQLite作爲自學資料庫管理的主題,建立完整的資料庫概念
學習在茫茫的資料海中,攫取有效的數據,建立解決問題所需的有效資料庫
小結
這篇文章先簡介了一半的數據分析流程
下篇會繼續介紹剩下的分析流程